iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 7
0
自我挑戰組

資料處理以及視覺化系列 第 7

R語言-第七天的鐵達尼 - 全民來找碴-找出現次數、搜尋特定字串

  • 分享至 

  • xImage
  •  

支線任務-2
這麼多姓名 , 哪一個是菜市場名呢?
該怎麼找出來哪個姓名出現過最多次?
在這份名單內 , 真的有 Jack 和 Rose嗎?

首先我們來找找看哪個名字出現過最多次

raw$name = all_name
raw %>% group_by(name) %>% summarise(次數 = n()) %>% arrange(.,desc(次數))
# A tibble: 667 x 2
   name       次數
   <chr>     <int>
 1 Andersson     9
 2 Sage          7
 3 Carter        6
 4 Goodwin       6
 5 Johnson       6
 6 Panula        6
 7 Skoog         6
 8 Rice          5
 9 Asplund       4
10 Baclini       4

結果出爐 , 在總數為891人的清單中 , Andersson 和 Sage分別出現了9次以及7次
那Jack 和 Rose呢?

which(raw$name %in% c('Jack','Rose'))
> which(raw$name %in% c('Jack','Rose'))
integer(0)

答案揭曉
根本沒有這兩個人拉XD

再來我們將名為Andersson單獨挑出

g1 = raw[which(raw$name == "Andersson"),]

接著我們可以用xtabs函式快速檢視這9個人的狀況

xtabs(~name + Sex , g1)
> xtabs(~name + Sex , g1)
           Sex
name        female male
  Andersson      6    3
  

沒想到竟然是6位女性! , 我還以為這個名字是男生的呢!


上一篇
R語言-第六天的鐵達尼 - 字串處理
下一篇
R語言-第八天暫時不要鐵達尼 - R 讀檔 第一篇
系列文
資料處理以及視覺化30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言